蘊涵句型分析於改進中文文字蘊涵識別系統 (Entailment Analysis for Improving Chinese Recognizing Textual Entailment System) [In Chinese]
نویسندگان
چکیده
我們所參與公開評測 NTCIR10 RITE-2[5]將文字蘊涵的研究分成兩種層面,首先是分兩 類(Binary Class, BC) ,任務的目標是單純判別 T1 與 T2 之間是否具有蘊涵關係。但句 子之間蘊涵關係並不能單純以有或沒有這麼簡單就區分開,NTCIR RITE 另外定義多類 (Multi Class, MC)這項任務,將句子之間的蘊涵分類為正向、雙向、矛盾、與獨立四種 關係。假設這個句子對具有蘊涵關係,但有可能兩個句子所包涵的資訊數量不同,造成 我們只能從其中一個句子推論出另一個句子的完整的意思,這樣的情況我們稱為兩個句 子間的蘊涵關係為正向蘊涵。反之兩個句子可以互相推論出另一個句子的含意,這樣的 情況我們就稱為雙向蘊涵關係。假設句子對之間沒有蘊涵關係,我們可以很合理認為兩 個句子所表達的意思不相同,但這並不完全正確的想法。可能兩個句子所包涵的資訊大 致相同只是少部份資訊不同造成句子的意思互相衝突,這樣的情況我們就稱之為矛盾蘊 涵。或是兩個句子本身包涵的資訊毫無關係這樣的情況我們就稱之為獨立蘊涵,藉由將 句子之間的蘊涵關係細分,使得文字蘊涵系識別的研究更有其意義。
منابع مشابه
Computational Linguistics & Chinese Language Processing Aims and Scope Contents Special Issue Articles: Selected Papers from Rocling Xxv 蘊涵句型分析於改進中文文字蘊涵識別系統 Entailment Analysis for Improving Chinese Recognizing Textual Entailment System
Recognizing Textual Entailment (RTE) is a new research issue in natural language processing (NLP) research area. RTE can be a useful component in many NLP applications. In this paper, we introduce our finding on the entailment analysis of the NTCIR-10 RITE-2 dataset, and use the observation to improve our system. In the previous works, all the input pairs are treated equally in a standard class...
متن کامل基於單語言機器翻譯技術改進中文文字蘊涵 (Improving Chinese Textural Entailment by Monolingual Machine Translation Technology) [In Chinese]
متن کامل
完全基於類神經網路之語音合成系統初步研究 (A Preliminary Study on Fully Neural Network-based Speech Synthesis System) [In Chinese]
A Preliminary Study on Fully Neural Network-based Speech Synthesis System 廖書漢 SHU-HAN Liao ,蔡亞伯 YaBo Chai , 廖元甫 a Yuan-Fu Liao, a 國立台北科技大學電子工程系 [email protected], [email protected], [email protected] 摘要 傳統的語音合成使用先文字分析後語音合成的架構,但是這種兩階段的作法, 通常會有,若前級分析錯誤,就會影響後級合成,且無法挽救的問題。因此,在 本論文中我們希望嘗試把前後級,全部都改成以類神經網路實現,以便將來可以 直接合成一個大的端對端語音合成類神經網路。主要的想法是,直接以字元串為 輸入單位,並盡量用大量未標記語料,進行非監督式類神經網路訓練。我們的系 統包含四個子網路,分...
متن کاملSemantic Associative Topic Models for Information Retrieval
主題模型(topic model)被廣泛地應用在各種文件建 模以及語音識別、資訊檢索和本文探勘系統中,有 效地擷取文件或字詞的語意和統計資料。大多數主 題模式,例如機率潛在語意分析(probabilistic latent semantic analysis) 和 潛 在 狄 利 克 里 分 配 (latent Dirichlet allocation),主要都透過一組潛藏的主題機 率分布來描述文件與字詞之間的關係,並用以擷取 文件的潛在語意資訊。然而,傳統的主題模型受限 於詞袋(bag-of-words)的假設,其潛藏主題僅能用來 擷取個體詞(individual word)之間的語意資訊。雖然 個體詞可傳達主題信息,但有時會缺乏本文準確的 語意知識,容易造成文件的誤判,降低檢索的品 質。為了改善主題模型的缺點,本論文提出一種新 穎的語意關聯主題模型(semantic associ...
متن کامل整合邊際資訊於鑑別式聲學模型訓練方法之比較研究 (A Comparative Study on Margin-Based Discriminative Training of Acoustic Models) [In Chinese]
鑑別式聲學模型訓練在近代自動語音辨識(Automatic Speech Recognition, ASR)中扮演 重要的角色。在許多基於不同思維且能有效地提昇辨識率的鑑別式聲學模型訓練方法陸 續被提出後,對於訓練方法的相關推廣與改進便如雨後春筍般地興起;而這些方法在本 質上,皆是在描述訓練語句與語音辨識器所產生對應詞圖(Word Graph)之間的關係。本 論文首先將統整與歸納近年來所發展的多種鑑別式聲學模型訓練方法,並以三種最具代 表性鑑別式訓練方法:最小化分類錯誤(Minimum Classification Error, MCE)、最大化交 互資訊(Maximum Mutual Information, MMI)、最小化音素錯誤(Minimum Phone Error, MPE)為範例,透過有系統地轉換與化解方程式,得到聲學模型訓練準則的共通表示函 數型態。我們可以發現到,對於...
متن کامل